在增加抗生素释放性和诸如Covid-19之类的传染病的传播时期,对与抗生素耐药性相关的基因进行分类非常重要。随着Nat-Ural语言处理的发展,基于变压器的语言模型,许多学习Nu-Cleotide序列特征的语言模型也出现了。这些模型在分类核苷酸序列的各种特征方面表现出良好的性能。在对核苷酸序列进行分类时,不仅是序列本身,而且还使用各种背景知识。在这项研究中,我们不仅使用基于核苷酸序列的语言模型,还使用基于PubMed文章的文本语言模型来反映模型中更多的生物背景知识。我们采用了一种基于抗生素抗性基因的各种数据库的核苷酸语言模型和文本语言模型的方法。我们还提出了一种基于LLM的增强技术,以补充数据和合奏方法,以有效地结合这两个模型。我们还提出了用于评估模型的基准。我们的方法比耐药性类别预测中的核苷酸序列语言模型更好。
![arxiv:2401.00642v1 [CS.CL] 2024年1月1日PDF文件第1页](/bimg/4/409b7ffca7dc187b67024d178b642c6f540cd0e3.webp)
![arxiv:2401.00642v1 [CS.CL] 2024年1月1日PDF文件第2页](/bimg/7/7d030d720a76e639bdff21e023caf7cc51f321d2.webp)
![arxiv:2401.00642v1 [CS.CL] 2024年1月1日PDF文件第3页](/bimg/f/f6e94629e77c9c0e645d277f8c251af83b0f4f9b.webp)
![arxiv:2401.00642v1 [CS.CL] 2024年1月1日PDF文件第4页](/bimg/6/61715524beb2116e613da1bc9c3afbf5a79c53d9.webp)
![arxiv:2401.00642v1 [CS.CL] 2024年1月1日PDF文件第5页](/bimg/0/07b56e671c5f57f4839dc7b0e1a04f249eaa7526.webp)
